Các mô hình và các giả thuyết Suy_luận_thống_kê

Bất kỳ kết luận thống kê nào đều phụ thuộc vào giả thuyết. Một mô hình thống kê là một tập hợp các giả thuyết liên quan đến việc tạo ra các dữ liệu quan sát và dữ liệu đồng dạng. Việc mô tả các mô hình thống kê thường nhấn mạnh vào vai trò của số lượng mẫu, điều quan trọng mà ta muốn kiểm tra độ chính xác của suy luận.[4] Thống kê mô tả thường được sử dụng như một bước chuẩn bị trước nhiều kết luận chính thức được đưa ra.[5]

Chấp nhận các mô hình/ giả thuyết

Thống kê phân biệt giữa ba cấp độ của các mô hình giả thuyết

  • Đầy đủ tham số: các phân phối xác suất mô tả quá trình dữ liệu tổng thể được mô tả một cách đầy đủ bởi một tập hợp của các phân phối xác suất liên quan đến số hạng hữu hạn các tham số chưa biết.[4] Ví dụ, người ta có thể giả định rằng sự phân phối của các giá trị mẫu là đúng tiêu chuẩn. Và bộ dữ liệu được tạo ra bởi các mẫu ngẫu nhiên cơ bản. Tập hợp của các mô hình tuyến tính tổng quát là một lớp được sử dụng rộng rãi và linh hoạt của các mô hình tham số.
  • Phi tham số: các giả thuyết về quá trình tạo ra các dữ liệu ít hơn so với số liệu thống kê thông số và có thể là rất nhỏ.[6] Ví dụ, các phân phối xác suất liên tục có giá trị trung bình, trong đó có thể được ước tính bằng trung bình mẫu hay các ước lượng Hodges-Lehmann-Sen, trong đó có đặc tính tốt khi dữ liệu phát sinh từ mẫu ngẫu nhiên không có nhiều yếu tố.
  • Bán tham số: thuật ngữ này thường ngụ ý giả định “ở giữa” hoàn toàn và phương pháp tiếp cận phi tham số. Ví dụ, người ta có thể giả định rằng một phân phối tổng thể có ý nghĩa hữu hạn. Hơn nữa, người ta có thể giả định rằng mức độ phản ứng trung bình trong tổng thể phụ thuộc tuyến tính trên một số tham số đồng biến (giả định một tham số) nhưng không thực hiện bất kỳ giả định tham số mô tả các biến có nghĩa theo nhiều hướng (như sự xuất hiện của mẫu hoặc có thể chấp nhận mẫu của bất kỳ biến ngẫy nhiên nào). Tổng quát hơn, các mô hình bán tham số thường có thể chia thành các “cấu trúc” và véc –tơ “biến thiên ngẫu nhiên”. Một vec – tơ được nghiên cứu dưới dạng tham số và không phải là tham số. Các mô hình Cox nổi tiếng là một tập hợp các giả định bán tham số.

Tầm quan trọng của mô hình/ giả thuyết hợp lý

Dù mức độ giả định được thực hiện, suy luận của việc đo độ chính xác của kết luận nói chung đòi hỏi các giả định này là chính xác, tức là các cơ chế tạo ra dữ liệu thực sự đã được quy định một cách phù hợp.

Giả định không chính xác của lấy mẫu ngẫu nhiên “không có nhiều yếu tố” có thể làm mất giá trị suy luận thống kê.[7] Giả thuyết bán tham số và tham số đầy đủ phức tạp cũng đang gây lo ngại. Ví dụ, giả sử mô hình Cox là sai, có thể trong một số trường hợp dẫn đến kết luận sai lầm.[8] Giả định không đúng quy tắc trong tổng thể cũng mất giá trị một số hình thức của suy luận hồi quy.[9] Việc sử dụng bất kỳ một mô hình tham số nào cũng được xem là một cách nghi ngờ bởi hầu hết các chuyên gia trong việc lấy mẫu tổng thể loài người: “hầu hết các nhà thống kê lấy mẫu khi họ xử lý các khoảng tin cậy, hạn chế khoảng tin cậy để báo cáo (người đánh giá) dựa trên các mẫu rất lớn, nơi mà các định lý giới hạn chính đảm bảo rằng (những người đánh giá) sẽ có các phân phối gần như là bình thường”[10]. Đặc biệt một phân phối bình thường: “sẽ là một giả định hoàn toàn không thực tế và việc chấp nhận giả thuyết một cách không thận trọng để thực hiện nếu chúng ta đang giải quyết với bất kỳ kiểu tổng thể của kinh tế”[10]. Ở đây, các định lý giới hạn trung tâm chỉ ra rằng các phân phối mẫu có nghĩa là: “cho mẫu rất lớn” được ước lượng phân phối thông thường, nếu phân phối là không nhiều đuôi.

Phân phối xấp xỉ

Với sự khó khăn trong việc xác định sự phân bố chính xác của số liệu thống kê mẫu, nhiều phương pháp đã được phát triển cho xấp xỉ này.

Với mẫu hữu hạn, kết quả xấp xỉ đo khoảng cách giữa một phân phối hạn chế tiếp cận với phân phối mẫu của thống kê. Ví dụ, với 10.000 mẫu độc lập xấp xỉ phân phối chuẩn (hai chữ số chính xác) phân phối của mẫu có ý nghĩa cho nhiều bản phân phối tổng thể bởi thuyết Bery – Esseen.[11] Tuy nhiên, đối với kết quả có ý nghĩa thực tế, xấp xỉ tiêu chuẩn cung cấp một xấp xỉ tốt để phân phối các mẫu trung bình khi có 10 (hoặc nhiều hơn) mẫu độc lập, theo nghiên cứu mô phỏng và kinh nghiệm thống kê[11]. Sau công việc của Kolmogorov vào những năm 1950, số liệu thống kê tiên tiến sử dụng lý thuyết xấp xỉ và phân tích chức năng để xác định số lượng các lỗi của xấp xỉ. Trong phương pháp này, các thuyết hình học metric của phân phối xác suất được nghiên cứu, cách tiếp cận này xác định số lượng lỗi xấp xỉ, ví dụ, sự phân kỳ Kullback – Leibler, Bregman phân kỳ và khoảng cách Hellinger.[12][13][14]

Với mẫu lớn vô hạn, hạn chế các kết quả nghiên cứu khoa học như các định lý giới hạn trung tâm mô tả giới hạn phân phối các mẫu thống kê, nếu nó tồn tại. Kết quả hạn chế là không báo cáo về các mẫu hữu hạn, và thực sự không liên quan đến xác mẫu hữu hạn.[15][16][17] Tuy nhiên, lý thuyết tiệm cận của các bản phân phối hạn chế thường được đưa ra dẫn chứng để chứng minh với các mẫu hữu hạn. Ví dụ, kết quả hạn chế thường được đưa ra dẫn chứng để biện minh cho phương pháp tổng quát của tầm quan trọng và việc sử dụng các phương trình ước tính tổng quát, được phổ biến trong kinh tế lượng và thống kê sinh học. Độ lớn của sự khác biệt giữa phân phối hạn chế và phân phối chuẩn (các lỗi của xấp xỉ) có thể được đánh giá bằng mô phỏng[18]. Các ứng dụng tự khám phá của giới hạn kết quả với các mẫu giới hạn là thực tế phổ biến trong nhiều ứng dụng, đặc biệt là với mô hình kích thước nhỏ của hàm log – concave likelihood (chẳng hạn như một tham số quan hệ theo cấp số nhân).

Các mô hình ngẫu nhiên

Bài chi tiết: Ngẫu nhiên

Đối với một bộ dữ liệu được cung cấp bởi một thiết kế ngẫu nhiên, phân phối ngẫu nhiên của một thống kê (theo giả thuyết null) được xác định bằng cách đánh giá kiểm định thống kê cho tất cả các dự định có thể được tạo ra bởi các thiết kế ngẫu nhiên. Trong suy luận thường hay xảy ra, chọn ngẫu nhiên cho phép suy luận dựa trên sự phân phối ngẫu nhiên chứ không phải là một mô hình chủ quan, và điều này là quan trọng đặc biệt trong mẫu khảo sát và thiết kế các thử nghiệm.[19][20] Suy luận thống kê từ các nghiên cứu ngẫu nhiên cũng đơn giản hơn nhiều hoàn cảnh khác.[21][22][23] Trong suy luận Bayesian, chọn ngẫu nhiên cũng có tầm quan trọng: trong mẫu khảo sát, sử dụng các mẫu mà không cần thay thế đảm bảo tính thay đổi của mẫu với tổng thể, tỏng thí nghiệm ngẫu nhiên, chọn ngẫu nhiên đảm bảo một chỗ trống tại giả định ngẫu nhiên cho thông tin cùng tham số.[24]

Mục tiêu ngẫu nhiên cho phép các thủ tục quy nạp đúng[25][26][27][28]. Nhiều thống kê phân tích buộc phân tích thống kê ngẫu nhiên dựa trên cơ sở các dữ liệu đã được tạo ra bởi các thủ tục ngẫu nhiên và được xác định rõ[29]. (tuy nhiên, sự thật là trong các linh vực của khoa học với kiến thức lý thuyết phát triển và kiểm soát thực nghiệm, thử nghiệm ngẫu nhiên có thể làm tăng chi phí của các thử nghiệm mà không cải thiện chất lượng của các kết quả[30][31]). Tương tự như vậy, kết quả từ các thí nghiệm ngẫu nhiên được đề nghị của cơ quan thống kê hàng đầu như cho phép suy luận với độ tin cậy cao hơn làm nghiên cứu quan sát các hiện tượng tương tự.[32] Tuy nhiên một nghiên cứu quan sát tốt có thể tốt hơn so với một thử nghiệm ngẫu nhiên xấu.

Phân tích thống kê của một thử nghiệm ngẫu nhiên có thể dựa trên các phối hợp ngẫu nhiên trong giao thức thử nghiệm mà không cần một mô hình chính.[33][34]

Tuy nhiên, bất cứ lúc nào, một số giả thuyết có thể không được kiểm tra bằng cách sử dụng mô hình thống kê khách quan, trong đó mô tả chính xác thí nghiệm ngẫu nhiên hay mẫu ngẫu nhiên. Trong một số trường hơp, các nghiên cứu ngẫu nhiên này là không kinh tế hoặc không đúng với nguyên tắc.

Phân tích dựa trên mô hình thí nghiệm ngẫu nhiên

Đó là tiêu chuẩn tiến hành để tham khảo một mô hình thống kê, thường là một mô hình tuyến tính, khi phân tích các dữ liệu từ các thử nghiệm ngẫu nhiên. Tuy nhiên, các kết hợp tác động đến việc lựa chọn mô hình thống kê. Nó không thể chọn một mô hình thích hợp mà không biết các kết hợp ngẫu nhiên.[20] Các kết quả sai lệch trầm trọng có thể thu được từ thí nghiệm phân tích dữ liệu ngẫu nhiên trong khi bỏ qua các giao thức thử nghiệm. Sai lầm phổ biến bao gồm bỏ lỡ việc ngăn chặn sử dụng thử nghiệm và đo lường lặp đi lặp lại gây nhầm lẫn về các đơn vị thử nghiệm tương tự với việc lặp lại độc lập của việc xử lý áp dụng cho các đơn vị thí nghiệm khác.[35]

Tài liệu tham khảo

WikiPedia: Suy_luận_thống_kê http://books.google.com/?id=T3wWj2kVYZgC&printsec=... http://books.google.com/books?id=V7oIAAAAQAAJ&pg=P... http://books.google.com/books?id=ZKMVAAAAYAAJ&jtp=... http://books.google.com/books?id=ZKMVAAAAYAAJ&jtp=... http://books.google.com/books?id=u8sWAQAAIAAJ&jtp=... http://books.google.com/books?id=u8sWAQAAIAAJ&jtp=... http://www.springerreference.com/docs/html/chapter... http://dspace.mit.edu/handle/1721.1/45587 //www.ams.org/mathscinet-getitem?mr=1082556 //www.ams.org/mathscinet-getitem?mr=1291393